分析大会用データ

新型コロナウィルスに関するデータです。すべてオンラインで最新データが取得できます。

データ 区分 種別 形式 言語 DL 備考
厚生労働省オープンデータ 公開 集計 CSV 日本 集計データを個別ファイルで公開
COVID-19 対策ダッシュボード 公開 集計 CSV 日英 NECソリューションイノベーター
Covid19 Japan 公開 個票・集計 JSON 英語 GitHubにて
JAG Japan 公開 個票 CSV 日本 GIS処理用データ付き

データ概略

厚生労働省オープンデータ(公開/集計/公式)

日本の公式データ。国内事例(チャーター便、空港検疫などを除く)の各報告日時点の集計値。

厚生労働省オープンデータの注意点

厚生労働省のデータはファイルにより単日であったり集計値であったりしますので、サイトの注意書きをよく読んでください。

データ 特記
陽性者数
PCR検査実施人数 当日と前日の累積人数の差を当日の実施人数として計上
入院治療等を要する者の数
退院又は治療解除となった者の数
死亡者数
PCR検査の実施件数 暫定値であり後日変更される可能性あり

COVID-19 対策DB(公開/集計/非公式)

NECソリューションイノベータによるtableauを使ったダッシュボード。

COVID-19 対策ダッシュボードの注意点

厚生労働省の報道資料をNECソリューションイノベータが加工し都道府県単位で集計したデータ。公表年月日と集計年月日があったりしますので列名には注意が必要です。データの処理コードは非公開。

エラーにはなりませんが、各列のデータ型を正しく推定するためにはreadr::read_csv関数でguess_max = 12500オプションを指定してください。なお、ファイルのエンコーディングはUTF-8 with BOM(ExcelのUTF-8エンコーディングCSV形式)になっています。

Covid19 Japan(公開/個票・集計/非公式)

Exploratory EDA Salonなどで紹介されている有志によるJSON形式データ。個票データ(下表)と集計データに分かれています。全て英語。

Covid19 Japan データの注意点

GitHub からjsonliteパッケージを利用して読み込んでください。

library(jsonlite)
path <- "https://raw.githubusercontent.com/reustle/covid19japan-data/master/"
path <- paste0(path, "docs/patient_data/")

path %>% 
  paste0("latest.json") %>% 
  readr::read_lines() %>% 
  paste0(path, .) %>% 
  jsonlite::fromJSON()

個票データへのパスは表示の都合上、分割しています。
各列(変量、フィーチャー)の定義はこちら

JAG Japan (公開/個票/非公式)

ジャッグジャパンがArcGISプロモーションマップ公開のために作成しているデータを副次的にCSV形式で公開している個票データ。

JAG Japan データの注意点

副次的な公開データなので色々な事情がある模様。特徴的なのはW列(23列)目以降にGIS処理用の変量(フィーチャー)が用意されている点です。これらの変量は分析には必要ありません。

Windows環境ではエラー回避のために下記の guess_maxオプションを指定してください。なお、指定してもGIS関連データの部分でワーニングが出ます。

  readr::read_csv(locale = readr::locale(encoding = "UTF-8"), guess_max = 5000)

各列(変量、フィーチャー)の定義は こちら

データを食材に例えると

集計データ

安心の調理済み食材
 
調理済みなのでアレンジする余地があまりなく、いかに美味しそうに盛り付けるかがポイント。  

個票データ

バイヤー厳選食材セット
 
バイヤーによって食材の産地や種類、収穫方法や品質が異なり、中には調理が厄介な食材が含まれることも。ただ、食材を追加したり調理方法を選ぶことができるので腕を振るえる。

データを扱う上でポイント

  • tidyverseパッケージを必ずインストール
    • readrならびにjsonliteパッケージはtidyverseパッケージに含まれます
  • CSVの読み込みにはreadr::read_csv関数で
    • ファイルにURLを指定すれば読み込むことができます
    • 文字化けする場合はlocaleオプションを指定してください
    • Warningなどが表示された場合は必ず読んで、確認してください
  • 読み込んだデータは各列(変量)のデータ型を必ず確認
    • 特に文字(chr)型になっている変量には注意してください
  • 本資料のコードがGoogle Colabで動作することは確認済

分析を行う際の注意点

  • 集計データを扱う場合は、集計条件をよく確認
    • 思い込みで扱うと思わぬ落とし穴があります
  • 個票データを扱う場合は、各列(変量)の持つ意味をよく確認
    • 個票データは非公式のデータなので、作成者により表記等が変わります
  • データがよく分からない場合はCSVファイルに書き出して眺める
    • readr::write_excel_csv(df, filepath) で書き出せます
  • 都道府県の地方区分などのデータは こちらで公開中
    • Wikipediaと総務省統計局の情報を元に作成してあります
    • 推定人口はH30年時点のもので単位は千人

Enjoy!